Image as Set of Points

ICLR23 oral(top-5%)

Keywords

画像をどう解釈するかで，特徴抽出の方法は大きく異なる

クラスタリングベースで行う研究

ConvNets（畳み込み）

矩形で並べられた画素集合として捉えている

sliding window方式で，局所的な特徴を抽出する

局所性・平行移動等価性といった帰納バイアスを含む

ViTs

画像をパッチの連続として扱う

globalなself-attentionとして，パッチから情報を適応的に混ぜている

CnvNetsに固有であった帰納バイアスを捨てた中，十分な性能

画像をグリッドで読み込み，シーケンスの相互関係を探索する．

MLP-Mixer，GNNなどでも同様の性能を達成できることが示されている．

各画素をRGBXYの5次元のデータ点として考慮

点群として扱うことができ，V&LのRepresentation Learningに貢献可能

Superpixelと類似している

一般的なVisual Representationのためのクラスタリングを導入したのがContributtion

Metaformer，Hierarical Representationといったフレームワークからのphilosophyも継承している

あるベンチマークではConvNetsやViTにCompetitive or Overwhelmである